psicologiafandomcom_es-20200215-history
Principios Matemáticos del Refuerzo
Los Principios Matemáticos del Reforzamiento (MPR por sus siglas en inglés, Mathematical Principles of Reinforcement) son un conjunto de ecuaciones matemáticas que tratan de describir y predecir los aspectos más fundamentales de la conducta. Los tres principios fundamentales de la MPR, excitación, restricción y asociación, describen cómo los incentivos motivan la respuesta, cómo el tiempo la limita, y cómo los refuerzos se asocian con respuestas específicas, respectivamente. Estos modelos matemáticos para los principios básicos han sido desarrollados principalmente por Peter Richard Killeen a fin de articular los detalles necesarios de los datos reales. Excitación (arousal) El primer principio básico de la MPR es la excitación. La excitación se refiere a la activación de la conducta mediante la presentación de los incentivos. El aumento en el nivel de actividad después de las presentaciones repetidas de los incentivos es un aspecto fundamental del condicionamiento. Killeen, Hanson y Osborne (1978) han propuesto que las conductas adjuntivas (o inducidas por programa) son fragmentos de conductas que ocurren normalmente y que forman parte del repertorio de un organismo. La entrega de incentivos aumenta la tasa de conductas adjuntivas mediante la generación de un mayor nivel de actividad general, o excitación, en los organismos. Killeen y Hanson (1978) expusieron a palomas a una presentación única diaria de alimento en la cámara experimental y midieron la actividad general 15 minutos después de una comida. Se mostró que el nivel de actividad aumentó ligeramente directamente después de una alimentación y luego disminuyó lentamente con el tiempo. La velocidad de decaimiento puede ser descrita por la función siguiente: : b(t) = b1 \times e ^ {\frac{-t}{\tau}} donde: b1 = ordenada en el origen (respuestas por minuto) t = tiempo en segundos desde que come \tau = constante de tiempo e = base del logaritmo natural El curso temporal de todo el modelo teórico de actividad general se modela mediante la siguiente ecuación: : R = A \times (e - \frac{t}{C} - e - \frac{t}{I}) donde: A = excitación I = inhibición temporal C = conductas competidoras Para comprender mejor este modelo, imagine cómo la tasa de respuesta aparece en cada uno de estos procesos por separado. En ausencia de inhibición temporal o respuestas competidoras, el nivel de excitación se mantiene alto y la tasa de respuesta se representa como una línea casi horizontal, con una pendiente negativa muy pequeña. Presentando a continuación la comida directamente, la inhibición temporal se encuentra en su nivel máximo. Disminuye rápidamente a medida que transcurre el tiempo, y la tasa de respuesta se espera que aumente hasta el nivel de excitación en un tiempo corto. Comportamientos competitivos como el seguimiento de objetivos o la inspección de la tolva se encuentran en mínimos inmediatamente después de la presentación de alimentos. Estos comportamientos aumentan a medida que transcurre el intervalo, por lo que la medida de la actividad general poco a poco disminuiría. Restando estas dos curvas resulta el nivel previsto de la actividad en general. Con posterioridad Killeen et al. (1978) aumentaron la frecuencia de la alimentación desde el inicial patrón diario hasta un intervalo fijo de segundos. Se mostró que el nivel de actividad general se incrementó sustancialmente desde el nivel de presentación diaria. Las asíntotas de la tasa de respuesta fueron las más altas de las tasas más altas de refuerzo. Estos experimentos indican que el nivel de excitación es proporcional a la tasa de incitación, y que aumenta el nivel de las asintóticas con presentaciones repetidas de los incentivos. El aumento en el nivel de actividad con la presentación repetida de los incentivos se llama acumulación de excitación. El primer principio de los MPR establece que el nivel de excitación es proporcional a la tasa de reforzamiento, A=ar, donde A = nivel de excitación, a = activación específica, r = tasa de refuerzo (Killeen y Sitomer, 2003). Un factor obvio pero a menudo ignorado en el análisis de las distribuciones de respuesta es que las respuestas no son instantáneas, sino que lleva algún tiempo emitirlas (Killeen, 1994). Estos límites en la tasa de respuesta a menudo se explican por la competencia de otras respuestas, pero con menos frecuencia por el hecho de que las respuestas no siempre pueden ser emitidas a la misma velocidad a la que se elicitan (Killeen y Sitomer, 2003). Este factor limitante se debe tener en cuenta a fin de caracterizar correctamente lo que podría ser la respuesta a nivel teórico, y lo que será a nivel empírico. Un organismo puede recibir los impulsos de respuesta a una cierta velocidad. A tasas bajas de refuerzo, la tasa de elicitación y la tasa de emisión se aproximarán. A tasas altas de refuerzo, sin embargo, la tasa de elicitación está sometida a la cantidad de tiempo que se necesita para emitir la respuesta. La tasa de respuesta, b , se mide típicamente como el número de respuestas que ocurren en un período dividido por la duración de ese período. El recíproco de b da la medida típica del tiempo entre respuestas (inter response time, IRT), el tiempo promedio desde el inicio de una respuesta al comienzo de otra (Killeen y Sitomer, 2003). Esto es en realidad el tiempo de ciclo más el tiempo entre respuestas. Según Killeen y Sitomer (2003), el IRT se compone de dos subintervalos, el tiempo requerido para emitir una respuesta, \delta más el tiempo entre las respuestas, \tau . Por lo tanto, la tasa de respuestas se puede medir dividiendo el número de respuestas por el tiempo de ciclo: : b = \frac{1}{\delta + \tau} , o como el número de respuestas dividido por el tiempo real entre las respuestas: : b = \frac{1}{\tau} Esta tasa instantánea, 1 / \tau puede ser la mejor medida a utilizar, ya que la naturaleza del operandum puede cambiar arbitrariamente dentro de un experimento (Killeen y Sitomer, 2003). Killeen, Hall, Reilly y Kettle (2002) pusieron de manifiesto que si la tasa instantánea de respuesta es proporcional a la tasa de refuerzo, \frac{1}{\tau} = ar , da como resultado una ecuación fundamental para la MPR. Killeen y Sitomer (2003) demostraron que si \tau = 1 / ar , entonces b=\frac{1}{(\delta+\frac{1}{ar})} , y reordenando se obtiene: : b = \frac{r}{\delta r + 1/a} Restricción Si bien las respuestas pueden ser elicitadas a una tasa proporcional a A = ar , sólo pueden ser emitidas a una tasa b debido a la restricción. El segundo principio de los MPR establece que el tiempo necesario para emitir una respuesta limita la tasa de respuesta (Killeen y Sitomer, 2003). Acoplamiento El acoplamiento es el concepto final de la MPR que une a todos los procesos en conjunto y permite predicciones específicas de comportamiento con diferentes programas de refuerzo. El acoplamiento se refiere a la asociación entre las respuestas y los reforzadores. La respuesta-objetivo es la respuesta de interés para el experimentador, pero cualquier respuesta puede ser asociada con un reforzador. Las contingencias de reforzamiento se refieren a cómo un reforzador está programado con respecto a la respuesta-objetivo (Killeen y Sitomer, 2003), y los programas específicos de refuerzo en efecto determinan cómo las respuestas se acoplan al reforzador. El tercer principio de los MPR establece que el grado de acoplamiento entre una respuesta y un reforzador disminuye con la distancia entre ellos (Killeen y Sitomer, 2003). Se dan coeficientes de acoplamiento, designados como C, para los diferentes programas de refuerzo. Cuando los coeficientes de acoplamiento se insertan en el modelo de activación-restricción, se derivan los modelos completos de condicionamiento: : b = \frac{c.r}{\delta r + 1/a } Esta es la ecuación fundamental de los MPR. El punto después de c es un marcador de posición para las contingencias específicas de refuerzo bajo estudio (Killeen y Sitomer, 2003). La tasa de refuerzo para los programas de razón fija es fácil de calcular, la tasa de refuerzo es directamente proporcional a la tasa de respuesta e inversamente proporcional al requisito de razón (Killeen, 1994). La función de retroalimentación del programa es por lo tanto: : r=\frac{b}{n} Sustituyendo esta función en el modelo completo da la ecuación de movimiento para los programas de razón (Killeen y Sitomer, 2003). Killeen (2003) mostró que la respuesta más reciente de una secuencia de respuestas se pondera más fuertemente y da un peso de \beta , dejando 1-\beta para las respuestas restantes. La respuesta penúltima recibe \beta(1-\beta) , la tercera posterior recibe \beta(1-\beta)^2 . La n -ésima respuesta desde el final tiene un peso de \beta(1-\beta)^{n-1} . La suma de esta serie es el coeficiente de acoplamiento para los programas de razón fija: : FR_n = 1 - (1-\beta)^n La aproximación continua es: : c_{FR_n} = 1 - e^{-\lambda n} donde {-\lambda n} es la tasa intrínseca de decaimiento de memoria. Insertando la tasa de refuerzo y el coeficiente de acoplamiento en el modelo de activación-restricción, ofrece las tasas de respuesta previstas para programas de razón fija: : b = \frac{c.}{\delta - n / {\delta a} } Esta ecuación predice bajas tasas de respuesta a los requisitos de razón bajos debido al desplazamiento de la memoria por la conducta consumatoria. Sin embargo, estas bajas tasas no siempre se encuentran. El acoplamiento de las respuestas puede remontarse más allá del refuerzo anterior, y un parámetro adicional, n0 se añade para dar cuenta de esto. Killeen y Sitomer (2003) mostraron que el coeficiente de acoplamiento para los programas de razón fija se convierte entonces en: : c_{FR_n} = 1 - (1 - \beta)n + n0 = 1 - \epsilon(1-\beta)n donde n0 es el número de respuestas que preceden al reforzador y que contribuyen a la fuerza de la respuesta. \epsilon con un rango que va de 0 a 1 es entonces el grado de supresión de la respuesta-objetivo en la memoria con la entrega de un reforzador. ( \epsilon = (1-\beta)n0 ) si \epsilon=1 , la eliminación es completa y se puede utilizar la más simple ecuación de razón fija. Según Killeen y Sitomer (2003), la duración de la respuesta puede afectar a la tasa de pérdida de memoria. Cuando la duración de las respuestas varía, ya sea dentro o entre los organismos, se necesita un modelo más completo, y \beta es reemplazada con 1-e^{-\lambda\delta} produciendo: : 1-\epsilon(1-\beta)\delta n = 1-\epsilon e^{-\lambda \delta n} Programas de razón variable ideales con un requisito de respuesta promedio de n tienen una probabilidad constante de 1/n de una respuesta que termine en refuerzo (Bizo, Kettle, & Killeen, 2001). La última respuesta que termina en refuerzo siempre debe ocurrir, y recibe el fortalecimiento de \beta . La respuesta penúltima ocurre con probabilidad 1-p y recibe un refuerzo de \beta(1-\beta) . La suma de este proceso hasta el infinito es (Killeen 2001, Anexo): : C(n) = \sum_{j=1}^\infty \beta (1 - \beta)^{j-1} (1-p)^{j-1} El coeficiente de acoplamiento para los programas de razón termina siendo: : c_{VR_n} = n : n + \frac {(1-\beta)} {\beta} multiplicando por el grado de borrado de la memoria da: : c_{VR_n} = n : n + \frac {\epsilon (1-\beta)} {\beta} El coeficiente de acoplamiento entonces se puede insertar en el modelo de activación-restricción como el coeficiente de acoplamiento para los programas de razón fija para el rendimiento previsto para las tasas de respuesta bajo pramas de razón variable: : b = \frac {c_{VR_n}} {\delta - n / \delta a} en programas de intervalo, la funciónde retroalimentación del programa es : R = \frac {1} {t} donde t es el tiempo mínimo promedio entre los refuerzos (Killeen, 1994). Referencias * Bizo, L. A., Kettle, L. C. & Killeen, P. R. (2001). "Animals don't always respond faster for more food: The paradoxical incentive effect." Animal Learning & Behavior, 29, 66-78. * Killeen, P.R. (1994). "Mathematical Principles of Reinforcement: Based on the Correlation of Behaviour with Incentives in Short-Term Memory." Behavioral and Brain Sciences, 17, 105-172. http://cogprints.org/591/ * Killeen, P. R., Hall, S. S., Reilly, M. P., & Kettle, L. C. (2002). "Molecular analyses of the principal components of response strength." Journal of the Experimental Analysis of Behavior, 78, 127-160. * Killeen, P. R., Hanson, S. J., & Osborne, S. R. (1978). "Arousal: Its genesis and manifestation as response rate." Psychological review. Vol 85 No 6. p. 571-81 * Killeen, P. R. & Sitomer, M. T. (2003). "MPR." Behavioural Processes, 62, 49-64 Categoría:Fórmulas